知识图谱研讨实录06丨肖仰华教授带你读懂百科图谱构建

查看原文

其他

知识图谱研讨实录06丨肖仰华教授带你读懂百科图谱构建

博文视点Broadview 2020-11-06

The following article is from 知识工场 Author 知识工场

知识图谱是一种大规模语义网络，已经成为大数据时代知识工程的代表性进展。

知识图谱技术是实现机器认知智能和推动各行业智能化发展的关键基础技术。由复旦大学肖仰华教授策划的《知识图谱：概念与技术》课程体系，已在国内进行了多次巡回演讲，受到参会人员一致好评。

课程主要目的和宗旨是系统讲述知识图谱相关知识，让同学们对知识图谱的理论和技术有一个系统的认知。本实录来自该课程老师和同学的研讨。

下面让我们通过第六章课程《百科图谱构建》的13条精华研讨，来进一步学习了解知识图谱技术内幕。文末可查看更多章节精华回顾。

本课程配套教材《知识图谱：概念与技术》。

/ 以下为课程第6章《百科图谱构建》的研讨实录 /

1丨概念认知的重要性体现在哪几个方面？

学生：

1.人类能理解事物的重要体现之一就是产生概念；

2.概念是人类将万事万物准确归类的前提；

3.概念的发展使得人类以最经济有效的方式认知世界；

4.概念是联想的重要隐含因素；

5.概念是归纳和推理的基础。

肖仰华老师：语言离不开认知，认知体现为知识库，三者之间关系密切，建议大家有空可以看看《The Big Book of Concepts》。

1丨百科图谱的意义体现在哪些方面？

同学代表性回答：

(1) 支撑领域知识图谱的构建；

(2) 为机器语言理解提供通用知识；

(3) 支撑语料自动标注。

肖仰华老师：百科图谱的根本意义在于让机器具备百科知识的理解能力，语义理解曾经有一个十分重要的观点就是百科观，认为人类所谓的语义理解就是能理解百科知识，因此，将百科知识赋予机器是十分重要的。

2丨单源百科图谱构建的关键步骤有哪些？

同学代表性回答：

数据获取，属性抽取，关系构建，概念层级体系构建，实体分类

3丨百科数据获取有哪些方法？各有何优缺点？

同学代表性回答：

基于dump数据下载：优点是方便且全面，缺点是不一定提供dump数据。

基于超链接的遍历策略：缺点是不全面，有的页面是孤立的。

基于枚举的遍历策略：优点是可以根据规律爬取，缺点是url不一定具有可枚举性。

肖仰华老师：这一步看上去最简单，但却最为关键，很多团队空有想法，没有数据。数据获取是核心能力，除了第一个方法，第二、第三两个方法，是高手较量的地方，作为平台方，往往不希望别人能轻易获取数据，这里面有很多博弈，其实，方法2和方法3可以融合在一起，这里的很多相关技术，由于涉及网络攻防，书中是没有展开介绍的，但这些技术是真正的核心技术，而且paper极少，巧妙使用方法2和方法3是能够几乎爬去你能看到的所有数据的，这里就不展开了。

4丨百科页面抽取中有哪些知识清洗的任务？分别举例。

同学代表性回答：

（1）属性对齐，主要解决属性表述不一致。如在表达基础信息时，有的网站用“基本信息”标签，有的网站用”简介“。

（2）数值属性值归一化，主要解决数值属性值格式不统一。如在表达重量的时候，有的网站用”KG“，有的网站用”公斤“。

（3）对象属性值分割，主要解决对象属性的多个属性值合并表示的情况。如在表达一个人的毕业院校时，网站可能把个人的所有毕业院校一起作为属性值，但是我们需要识别出其小学、高中、大学等。

肖仰华老师：这里的很多问题看上去很细小琐碎，但这恰恰就是知识工程技术的特点，比如日期的归一化问题，就很难。而且这个问题你还似乎没什么好办法，只能遇到一个解决一个，我们到现在也没想出什么elegant的统一模型来解决这个问题，我甚至想做个通用的平台专门解决所有可能的描述不一致问题。

5丨关系构建要解决的核心问题是什么？解决这些问题的主要思想是什么？

同学代表性回答：

• 核心问题是将属性值链接到知识图谱中的实体。

• 解决方法分为两类：

1）当属性值存在超链接时：解析超链接对应的URL。

2）当属性值不存在超链接时：建模为分类问题。

肖仰华老师：这个答案挺好，对于第二种情况，其实就是在做实体链接。

6丨百科图谱中的实体分类任务输入输出分别是什么？主要方法有哪些？

同学代表性回答：

输入：知识图谱中的实体。

输出：一组预定义的概念集合。

方法：人工方法基于规则的方法基于机器学习的方法。

7丨有哪些典型实体分类规则？

同学代表性回答：

通用的推理规则，指那些能适用于全部概念的实体分类规则，包括基于等价实体关系和基于概念子类关系的推理规则。

启发式的推理规则，如：(1)基于实体名称的推理:实体名称后缀为“医院”、“大学”的很可能分别属于概念“医院”和“大学”。(2)基于属性的推理:实体包含属性“性别”的，很可能属于概念“人物”。(3)基于属性-值的推理:如果实体包含属性-值对(职业，演员)，很可能属于概念“演员”。

肖仰华老师：我是希望大家能给我一些具体的规则，大家要能自己再写一些相应的规则。能否自动学出这些规则，如果大家能提出方法自动学习这些规则，是可以发paper的。

8丨基于学习的实体分类有哪些典型的模型与框架？

同学代表性回答：

（1）对于单示例特征表示，该任务可以视为典型的多标签分类问题，所以经典的朴素贝叶斯、逻辑回归、支持向量机和决策树等模型即可解决，典型方法是CUTE。

（2）对于多示例特征表示，主要有两类解决方法。一是分类+融合的方法，首先对每个示例中的实体指代进行分类，之后将所有示例的结果进行融合，得到最终的结果，典型的方法有METIC；二是多示例学习的方法，一次性考虑实体的全部示例信息，得到完整的分类结果。

9丨从mention typying 融合entity types的基本模型是什么？约束如何构造？

同学代表性回答：

每个实体(entity)可能出现在多个句子中，每个句子中出现的实体看作这个实体的mention。将实体分类问题分解为实体mention分类 + 概念融合两个子问题。

概念融合过程中需要考虑两个约束，一个是概念互斥约束，即一个实体不可能存在属于两个语义互斥的概念，如人物和地点。另一个是概念层次约束，即一个实体不能在不属于一个父概念的情况下却属于它的子概念。

为了将这两个约束放入概念融合模型了，考虑使用整数线性规划模型，x_i 是一个指示变量，x_i = 1表示实体属于概念i，x_1 = 0表示实体不属于概念i。目标函数是使得实体所属概念的概率最大化（但需要大于某个阈值，如0.5），而约束1为概念互斥约束，将其转化为数学表达式为 x1 + x2 <= 1，表示两个概念至多只有1个为1。约束2为概念层次化约束，将其转化为数学表达式为 x1 - x2 <= 0，其中x1是x2的子概念。表示必须x2先为1，x1才能为1。

10丨多个知识图谱融合有哪些具体任务？分别是什么含义

同学代表性回答：

包括四个任务。

第一个是概念融合，把不同知识图谱的概念给对齐；第二个是实体对齐，把不同知识图谱的实体给对齐；第三个是属性对齐，把不同知识图谱的属性给对齐；第四个是属性值融合，把不同知识图谱中的同一实体的同一属性的属性值进行合并。

11丨实体对齐任务中，成对对齐与集体对齐有何差别？

同学代表性回答：

是考虑局部和全局信息的区别。成对对齐就是判断来自不同知识图谱中的两个实体是否等价，只考虑这两个实体之间的信息。匹配速度快，但可能会出现一个知识图谱中的实体和另一个知识图谱中的多个实体匹配的情况。集体对齐会同时考虑整个知识图谱中的信息。速度较慢，但不会出现1对多的情况。

12丨解决属性对齐的主要思想是什么？

同学代表性回答：

包括字面相似度（字符串之间的相似度）、语义相似度（同义词字典等）以及统计相似度（s-o pair的overlap程度）。

13丨基于异构信息网络实现属性值融合的核心思想是什么？

同学代表性回答：

核心思想有两条，一是每个知识图谱质量取决于其中的所有三元组的平均准确率，二是每条未知三元组的准确率可以用其知识图谱的质量来估计。三是对于单值属性来说，一个实体的一个单值属性只有一个属性值是对的。基于这些思想，可以通过迭代的思路得到最终每个知识图谱的质量以及每条三元组的质量。类似于PageRank的思路，不管初始值如何设置，最终它们终将收敛到一个稳定的值上。

图书推荐

《知识图谱：概念与技术》

肖仰华等编著

本书力求涵盖知识图谱相关的基本概念与关键技术，总结了十多个知识图谱工程项目的落地经验。

本书紧密围绕知识图谱开展知识体系的梳理，尽量突出知识图谱与相关学科的差别，尽可能的为大家清晰地界定知识图谱与各分支学科的根本不同。本书注重知识图谱的整个知识体系，从最基础的基本概念、基础理论到设计、技术、模型、方法都做了全面的介绍。

（扫码了解本书详情）

▶ 研讨实录回顾

如果喜欢本文

欢迎在看丨留言丨分享至朋友圈 三连

热文推荐

▼点击阅读原文，了解本书详情~

喜欢此内容的人还喜欢

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

娱乐圈明星唱阿哲“事非人愿”，自爆和阿哲交情！@姗姗，阿哲首发新歌送前妻！二辰午夜陪播！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！